سیستم یادگیری ماشینی یکباره با گفتار و شناخت شیء مقابله می کند

.

.

به وب سایت من خوش امدید
ایمیل مدیر :

» خرداد 1399
» ارديبهشت 1399

ورود اعضا:

نام :
وب :
پیام :
2+2=:
(Refresh)

خبرنامه وب سایت:







RSS
سیستم یادگیری ماشینی یکباره با گفتار و شناخت شیء مقابله می کند
نویسنده vacumblupom@gmail.com تاریخ ارسال سه شنبه 20 خرداد 1399 در ساعت 19:18

دانشمندان رایانه MIT سیستمی را ساخته اند که می آموزد تا اشیاء موجود در یک تصویر را بر اساس توصیف گفتاری از تصویر شناسایی کند. با توجه به یک تصویر و یک عنوان صوتی ، این مدل در زمان واقعی مناطق مربوط به تصویر توصیف شده را برجسته می کند.


بر خلاف فن آوری های تشخیص گفتار فعلی ، مدل نیازی به رونویسی و حاشیه نویسی از نمونه هایی که در آن آموزش داده شده است نیست. درعوض ، کلمات را مستقیماً از کلیپ گفتار ضبط شده و اشیاء در تصاویر خام یاد می گیرد و آنها را با یکدیگر مرتبط می کند.

در حال حاضر این مدل می تواند تنها چند صد کلمه و نوع مختلف شی را تشخیص دهد. اما محققان امیدوارند که روزی تکنیک ترکیب تشخیص گفتار و گفتار آنها بتواند ساعتهای بی شماری از کار دستی را نجات دهد و درهای جدیدی را در گفتار و تشخیص تصویر باز کند.

به عنوان مثال ، سیستم های تشخیص گفتار مانند Siri و Google Voice نیاز به رونوشت هزاران ساعت ضبط گفتار دارند. با استفاده از این داده ها ، سیستم ها یاد می گیرند تا سیگنال های گفتاری را با کلمات خاص ترسیم کنند. چنین رویکردی به ویژه هنگامی مشکل پذیر می شود که مثلاً اصطلاحات جدید در واژگان ما وارد شوند و سیستم ها مجدداً مورد استفاده قرار گیرند.

"ما می خواستیم تشخیص گفتار را به روشی طبیعی تر انجام دهیم ، با استفاده از سیگنال های اضافی و اطلاعاتی که انسان از مزایای استفاده آنها استفاده می کند ، استفاده می شود ، اما این الگوریتم های یادگیری ماشین به طور معمول به آنها دسترسی ندارند. ما ایده آموزش یک مدل را در یک ایده گرفتیم. دیوید هاروات ، محقق آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و گروه Spoken Language Systems ، می گوید: روشی شبیه به راه رفتن کودک در جهان و روایت کردن آنچه می بینید. هاروات با نوشتن مقاله ای ، توصیف مدلی را ارائه داد که در کنفرانس اخیر اروپا در مورد چشم انداز رایانه ارائه شد.

در این مقاله ، محققان مدل خود را بر روی تصویری از دختر جوان با موهای بلوند و چشم های آبی نشان داده اند و لباس آبی پوشیده ، با یک فانوس دریایی سفید با یک سقف قرمز در پس زمینه نشان داده اند. این مدل آموخته است که پیکسل های موجود در تصویر را با کلمات "دختر" ، "مو بلوند" ، "چشم آبی" ، "لباس آبی" ، "خانه نور سفید" و "سقف قرمز" مطابقت می دهد. هنگامی که یک عنوان صوتی روایت می شد ، مدل سپس هر کدام از اشیاء موجود در تصویر را همانطور که توصیف شده است برجسته می کند.

یک برنامه امیدوار کننده یادگیری ترجمه ها بین زبان های مختلف ، بدون نیاز به حاشیه نویسی دو زبانه است. از حدود 7000 زبان تخمین زده شده در سرتاسر جهان ، فقط 100 یا حدود داده های رونویسی کافی برای تشخیص گفتار دارند. با این حال ، شرایطی را در نظر بگیرید که دو بلندگو با زبان مختلف تصویر یکسانی را توصیف می کنند. اگر این مدل سیگنال های گفتاری را از زبان A بیاموزد که با اشیاء موجود در تصویر مطابقت دارد و سیگنال ها را با زبان B که با همان اشیاء مشابه است یاد می گیرد ، می تواند فرض کند که این دو سیگنال - و کلمات منطبق - ترجمه های یکدیگر هستند.



هاروات با اشاره به گوشواره زنده ساختگی در رمان های "راهنمای هیچکدام به کهکشان" که ترجمه زبان های مختلف را به فرد پوشنده می دهد ، می گوید: "چنین مکانیکی برای نوع بابل ماهی وجود دارد."

همکاران نویسنده CSAIL عبارتند از: دانشجوی تحصیلات تکمیلی Adria Recasens؛ دانش آموز بازدید Didac Suris؛ محقق سابق گالن چوانگ؛ آنتونیو تورالبا ، استاد مهندسی برق و علوم رایانه و همچنین رئیس آزمایشگاه هوش مصنوعی MIT-IBM Watson؛ و دانشمند ارشد تحقیقات جیمز گلس ، که رهبری گروه Spoken Language Systems در CSAIL را برعهده دارد.

انجمن های صوتی و تصویری

این اثر بر روی مدل قبلی توسعه یافته توسط Harwath ، Glass و Torralba است که ارتباط گفتار با گروه هایی از تصاویر مرتبط با موضوع را نشان می دهد. در تحقیقات قبلی ، آنها تصاویری از صحنه های مربوط به یک پایگاه داده طبقه بندی را بر روی پلت فرم ازدحام مکانیکی ترک قرار داده اند. آنها سپس به مردم اجازه دادند تا حدود 10 ثانیه تصاویر را گویی برای کودک روایت کنند. آنها بیش از 200000 جفت تصویر و زیرنویس صوتی را در صدها دسته مختلف مانند سواحل ، مراکز خرید ، خیابان های شهر و اتاق خواب تالیف کردند.

آنها سپس مدلی را متشکل از دو شبکه عصبی کانونی جداگانه (CNN) طراحی کردند. یکی تصاویر را پردازش می کند ، و دیگری طیف سنجی را پردازش می کند ، نمایش تصویری از سیگنال های صوتی در طول زمان تغییر می کند. بالاترین لایه مدل محاسبات خروجی دو شبکه را انجام داده و الگوهای گفتار را با داده های تصویربرداری می کند.

به عنوان مثال ، محققان عنوان مدل A و تصویر A را تغذیه می کنند ، که صحیح است. سپس ، آنها را با عنوان A تصادفی B با تصویر A ، که یک جفت نادرست است ، تغذیه می کنند. پس از مقایسه هزاران عنوان اشتباه با تصویر A ، مدل سیگنال های گفتاری را که مطابق با تصویر A است ، می آموزد و آن سیگنال ها را با کلمات موجود در زیرنویس ها مرتبط می کند. همانطور که در یک مطالعه سال 2016 توضیح داده شد ، این مدل ، به عنوان مثال ، یادگیری سیگنال مربوط به کلمه "آب" و بازیابی تصاویر با اجسام آب را یاد گرفت.

هاروات می گوید: "اما راهی برای گفتن فراهم نکرده است ،" این دقیقاً زمانی است که شخصی کلمه خاصی را بیان کرد که به آن پیکسل های خاص پیکسل ها اشاره دارد. "

تهیه نقشه خواستگاری

در مقاله جدید ، محققان این مدل را اصلاح کردند تا کلمات خاص را با تکه های خاص پیکسل ها مرتبط کنند. محققان این مدل را در همان پایگاه داده آموزش دادند ، اما با مجموع 400000 جفت زیرنویس تصاویر. آنها 1000 جفت تصادفی برای آزمایش برگزار کردند.

در آموزش ، به طور مشابه به تصویر و زیرنویس های صحیح و نادرست نیز داده می شود. اما این بار ، تجزیه و تحلیل تصویر CNN تصویر را به شبکه ای از سلول های متشکل از تکه های پیکسل تقسیم می کند. تجزیه و تحلیل صوتی CNN ، طیف سنج را به بخش هایی از مثلاً یک ثانیه برای گرفتن یک یا دو کلمه تقسیم می کند.

با استفاده از تصویر صحیح و جفت زیرنویس ، مدل با سلول اول شبکه به قسمت اول صوتی مطابقت می یابد ، سپس آن سلول را با بخش دوم صوتی مطابقت می دهد و غیره ، تمام راه را از طریق هر سلول شبکه و در کل. بخش های زمانی برای هر بخش سلولی و صوتی ، بسته به اینکه چقدر سیگنال با جسم مطابقت دارد ، نمره شباهت را ارائه می دهد.

چالش این است که ، در طول آموزش ، مدل به هیچ گونه اطلاعات واقعی تراز بین گفتار و تصویر دسترسی ندارد. هاروات می گوید: "بیشترین سهم مقاله ، نشان دادن این است که این ترازهای متقابل [صوتی و تصویری] را می توان به سادگی با آموزش شبکه ، استنباط کرد که تصاویر و نوشتن تصاویر به چه زبانه ها با هم و کدام یک از جفت ها انجام نمی دهند."

نویسندگان این ارتباط یادگیری خودکار را بین شکل موج یک گفتار با پیکسلهای تصویر "نقشه مطابقت" لقب داده اند. شبکه بعد از آموزش هزاران زوج عنوان ، تصویر آنرا به کلمات خاص که نمایانگر اشیاء خاص در آن نقشه هستند ، می کشد.

 http://prbookmarkingwebsites.com/story5103366/قیمت-آکومولاتور



نظرات شما عزیزان:

نام :
آدرس ایمیل:
وب سایت/بلاگ :
متن پیام:
:) :( ;) :D
;)) :X :? :P
:* =(( :O };-
:B /:) =DD :S
-) :-(( :-| :-))
نظر خصوصی

 کد را وارد نمایید:

 

 

 

عکس شما

آپلود عکس دلخواه:





.:: ::.
عناوین آخرین مطالب بلاگ من
» Exosuit نرم چند مشترک و شخصی زمینه جدید را می شکند
» مسیر دوچرخه ساخته شده از پلاستیک بازیافت شده در هلند باز می شود
» دستگاه تشخیص سرطان TINY در آزمایش اوگاندا مؤثر است
» تخصیص بهینه منابع برای سیستم های ارتباطی پهپاد در مدیریت حوادث
» سیستم یادگیری ماشینی یکباره با گفتار و شناخت شیء مقابله می کند
» دانشمندان از شبکه های عصبی مصنوعی برای پیش بینی مواد با ثبات جدید استفاده می کنند
» با نگهبانان جدید اقیانوس آشنا شوید - چتر دریایی ربات
» قطار هیبریدی برقی بامبایر برای حفظ جاه طلبی های سبز آلمان
» محققان فیس بوک برای آموزش عوامل گفتگوی شخصی ، یک مجموعه داده ایجاد می کنند
» تحقيقات Tenable ، آسيب پذيري Peekaboo را كه بر نظارت تصويري تاثير مي گذارد ، افشا كرده است
» سوخت نشت NSA در مورد هک شدن برای استخراج رمزنگاری افزایش یافته است: گزارش
» هواپیمای بدون سرنشین پرواز "می آموزد" مانند یک پرنده بالا رود
» «پوست روباتیک» اشیاء روزمره را به روبات تبدیل می کند
» ایجاد "مجسمه های حرکتی" چاپی 3 بعدی از فیلمهای دو بعدی
» تشخیص سریع شیء در فیلم ها با استفاده از بسته بندی های مورد علاقه منطقه
» AMD بازی Ryzen خود را با تراشه های 45W بالاتر می برد
» چه چیزی باعث می شود یک بازی ویدیویی آموزشی به خوبی کار کند؟
» شیمیدانها رویکرد پایدار نسبت به جذب دی اکسید کربن از هوا نشان می دهند
» شمارش جمعیت از طریق دیوارها ، با WiFi
» آوردن هوش دستگاه به تئاتر بداهه



.:: Design By :